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Построение системы голосового управления 
компьютером на примере задачи набора 
математических формул 


Статья посвящена описанию модульной системы голосового управления компьютером. Рассматриваются 
вопросы, связанные с архитектурой такой системы, структурой управляющего модуля и форматом 
словаря команд, приводится описание алгоритмов, лежащих в основе подсистемы распознавания 
речи. Рассматривается подход к обучению системы для конкретного диктора, предполагающий обучение в 
процессе использования системы. 


Введение 


Одним из направлений интеллектуализации компьютерной обработки информа- 
ции является распознавание речи, т.е. разработка методов и алгоритмов интерпретации 
звуковых сигналов, позволяющих компьютеру определить в анализируемом звуковом 
сигнале наличие речевых данных и правильно прореагировать на них. Работы по рас- 
познаванию речи, помимо всего прочего, ведут к созданию части речевого интерфейса 
«человек — компьютер», отвечающей за обработку данных от пользователя, т.е. систем 
голосового управления. Целью данной работы является описание модульной системы 
голосового управления компьютером на основе распознавания раздельно произноси- 
мых команд и иллюстрация возможностей такой системы в приложениях для набора 
математических формул, входящих в состав пакета Масгозой ОЁйсе. 


Архитектура системы голосового управления 


Описываемая в данной работе система голосового набора математических формул 
проектировалась и разрабатывалась как часть системы голосового управления компью- 
тером. Программа имеет модульную структуру: вокруг основного приложения -— рас- 
познавателя речи, реализующего взаимодействие с пользователем и функции записи, 
обработки и распознавания звукового сигнала, группируются динамически подключае- 
мые модули — прослойки для взаимодействия с другими приложениями и элементами 
операционной системы. Каждый такой модуль предоставляет основному приложению 
словарь команд, которые он способен обрабатывать. Кроме того, модуль уведомляет ос- 
новное приложение о том, с чем именно он может взаимодействовать. Основное прило- 
жение отслеживает изменение фокуса в системе и в соответствии с этим формирует 
рабочий словарь как объединение словарей команд модулей, подписавшихся на работу 
с активным в данный момент приложением или элементом управления. Схематически 
перемещение потоков данных в такой системе соответствует изображенному на рис. 1. 
Жирные линии обозначают перемещение данных, тонкие — управляющих команд. 

Преимущества такого подхода очевидны: сторонние разработчики могут соз- 
давать модули взаимодействия с интересующими их приложениями, не изменяя кода 
основного приложения-распознавателя; пользователь может по своему усмотрению 
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формировать набор активных модулей; создатели коммерческих проектов, желающие 
оснастить свой программный продукт функциями голосового управления, избавлены 
от необходимости открывать спецификации. 
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Рисунок 1 — Схема потоков данных системы голосового управления компьютером 


Модуль-прослойка для голосового управления неким приложением представляет 
собой динамически присоединяемую библиотеку (*.41), экспортирующую функции, 
описание которых приведено в табл. 1. 

Словари, используемые системой распознавания, представляют собой текстовые 
файлы, каждая строка которых содержит информацию об одном распознаваемом клас- 
се. Такая строка должна содержать следующие поля, разделённые пробелами: 

— символьное обозначение команды; 

— слово, которое необходимо произнести для активации команды; 

— обобщённая транскрипция; 

— обозначение части речи («с» — существительное, «п» — прилагательное, «г» — 
глагол и т.д.). 

Входящие в состав системы модули позволяют использовать голосовые команды 
при работе с редакторами формул «Едианоп» и «Ма@Туре», а также при работе с редак- 
тором формул из пакета М1сгозой ОЁйсе 2007. Возможности голосового управления 
в большинстве случаев освобождают пользователя от обращения к системе меню ре- 
дактора формул, тем самым облегчая процесс ввода формул, делая его менее моно- 
тонным и трудоемким. При организации системы голосовых команд мы исходили из 
предположения, что символы, которые не требуют использования сочетания клавиш, 
пользователю проще вводить с клавиатуры, нежели голосом (все латинские симво- 
лы, а также все цифры и символы типа *, &, +, -, = и так далее). 


Таблица 1 — Функции, экспортируемые модулем-прослойкой 


№ Список 
Название Тип результата Описание 
п/п аргументов 
1. ОеАррМате  |уо1а сваг *сСотт | Возвращает содержание заголовка окна, 


с которым может работать данный мо- 
дуль. Вызывается основной программой 
каждый раз при изменении фокуса вво- 
да в системе. 
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Продолж. табл. 1 


2. Се с\Мате |уо1а спаг *сСот | Возвращает путь к файлу, содержащему 
словарь команд. Вызывается в случае, 
когда система определила, что данный 
модуль может работать с получившим 
фокус ввода приложением. 


3. ОеСошттапа  |у014 ше пСот, |Получить символьное обозначение ко- 
спаг *сСот | манды с номером пСот. 


4. Се у01А шёпСот,  |Получить подсказку (расширенное опи- 
сваг *с Ниш! | сание) для команды с номером пСотт. 


5. Ое\\ота уо14 шЕпСот, |Получить слово, которое должен про- 
сваг *сСот |изнести пользователь, чтобы была вы- 
полнена команда с номером пСот. 


6. деСоцт ше — Получить количество команд, поддер- 
живаемых модулем. 
7. Соштапа$еаа |уо1А сваг Инициировать реакцию модуля на рас- 
епсе *[рСот познанное слово рСот. 
8. БеСоттапа  |уо!4 сваг Отменить последнее действие, пред- 
*рСот принятое как результат распознава- 


ния слова рСот. 


Организация подсистемы распознавания речи 


Программа-распознаватель использует пофонемное распознавание на уровне 
широкой фонетической классификации (гласная — голосовая согласная — шипящая — пау- 
за) [1], [2]. В основе лежит ряд разработанных авторами алгоритмов [3]. Для записи звуко- 
вого сигнала производится его 8-битная оцифровка с частотой дискретизации 22 050 Гц. 
Программа использует автоматическое определение начала и конца речи и осуществ- 
ляет проверку записанного на речь путем определения наличия или отсутствия доста- 
точно длинных квазипериодических частей, которые должны отвечать голосовым звукам. 

Предполагается использование системы в лабораторных условиях, при отсутствии 
существенного внешнего шума. Перед началом работы производится настройка авто- 
матической записи. С микрофона записывается 30 000 отсчетов «тишины», и в записан- 
ном сигнале анализируются последовательные отрезки по 300 отсчетов в каждом. Для 
каждого из них вычисляется отношение: 


Г/С, (1) 
где 
298 
= (2) 
1=0 


— численный аналог полной вариации, С — число точек постоянства, то есть ди- 
скретных моментов времени, для которых в следующий момент величина сигнала ос- 
тается неизменной. Автоматически определяется значение величины (1), характерное для 
используемой звуковой карты, как наиболее часто встречающееся в массиве значений. 
Оно увеличивается на 0,1 и используется в качестве порога срабатывания автозаписи, а 
результат, увеличенный в 2 раза — в качестве порога завершения записи. 
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В системе распознавания речи по нажатии кнопки записи компьютер начинает за- 
писывать сигнал, поступающий с микрофона, и вычислять для последовательных отрез- 
ков по 300 отсчетов величину (1), определяется момент, после которого эта величина 
впервые не менее пяти раз подряд превышает порог срабатывания и, начиная с него, в бу- 
фер 1 заносятся отсчеты вплоть до момента, после которого на протяжении 10 000 отсчетов 
величина (1) окажется меньше, чем порог завершения. После этого запись останавливается. 

Описанная процедура записи звука может начаться под действием постороннего 
шума. Поэтому необходима проверка записанного на наличие речи. Практически любое 
слово содержит голосовые звуки, которым в записанном сигнале отвечают отрезки квази- 
периодичности. Исключение, например, — отдельно произнесенный предлог «С». На этом 
основан следующий способ проверки записанного на наличие речи. Задается некоторый 
порог р. Для мужского голоса его можно взять равным 100, для женского — 70. Если 
в записанном сигнале обнаружится не менее 5 идущих подряд квазипериодов с длиной р, 
то записанный сигнал содержит речь. В таком случае он передается в буфер 2 для 
последующей визуализации и распознавания. В противном случае этот сигнал во 
внимание не принимается. 

После записи сигнала выполняется его автоматическая сегментация на участки, 
отвечающие классам широкой фонетической классификации. 

Пусть имеется одномерный числовой массив и задан некоторый порог р. По- 
строим символьную последовательность 5, поставив в соответствие членам массива, 
которые больше р, символ «В» (выше порога), остальным — символ «Н» (ниже порога). 


Для того, чтобы устранить случайные единичные включения, для каждого промежу- 
точного 1-го элемента полученной символьной последовательности 5 выполняются две 
дополнительные обработки, обработка «тройками»: 


если 51-П=51+Пи $ Й= 51-1, 
то полагается 

$П=5-П, 
и обработка «четверками»: 


если $П=51+3З] и $1451, 51+2] 51, 


то полагается 
51+П=&Й и 511+2]=5[1. 


Далее мы не раз будем иметь дело с описанной процедурой построения такой сим- 
вольной последовательности. Для краткости будем называть ее «В-Н»-обработкой исход- 
ного числового массива. 

Назовем сглаживанием сигнала 


УМЫ 
обработку его З3-точечным скользящим фильтром 
= РЕ 
р. 3 ь 
Далее предлагается алгоритм выделения глухих согласных, произнесение кото- 


рых происходит без участия голосовых связок. В основе его лежит обработка сигна- 
ла полосовым фильтром с интервалом пропускания от 100 до 200 Гц. На рис. 2 а) и2 6) 
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приведена запись слова «ОСА» до и после такой фильтрации. Отфильтрованный сигнал 
пронормирован так, чтобы его максимальное значение равнялось 255 (либо минималь- 
ное значение равнялось нулю). 

После фильтрации на участках глухих звуков разность между числом точек не- 
постоянства и числом точек постоянства будет отрицательной, что позволяет выде- 
лить их в массиве таких разностей, построенном для последовательности окон в 256 от- 
счетов. На рис. 3 изображено окно программы, реализующей описанный алгоритм 
для слова «оса». Слева приведены столбцы трех числовых массивов: массив чисел 
точек постоянства, массив чисел точек непостоянства и массив разностей. 

Подчеркнем еще раз, что любой выделенный участок глухих звуков может со- 
держать шипящую, как в слове «лошадь», паузу, как в слове «лапа», или и то, и другое 
вместе, как в слове «отстать». 
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Рисунок 3 — Числовой массив, по которому определяются С в слове «оса» 
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Рассмотрим для произвольно выделенного участка речевого сигнала численный 
аналог полной вариации «с переменным а пределом»: 


7(0)=0, У(м)= Зы х,. (3) 


Пусть № — максимальное число такое, что (м, )< 255. Полагаем И’(и) =Т(и) 


при 0 <и< М, (М +0 =0, (п) = в — х,| при М, +1$п < М, ‚где М, - 
1=М +1 

максимальное число, такое, что И’(М№,) < 255 и так далее. В результате возникает 

массив чисел 

№, №, — М,, М. —М.... (4) 

Каждое из них — это длина участка, на котором величина Й’(п) возрастает от 0 

до 255. Возьмем среднее этих чисел для выделенной части сигнала. Это среднее усло- 

вимся называть «вариационной мерой» или просто «мерой» М выделенной части сигна- 

ла. На рис. 4 а) и 4 6) изображен график звукового сигнала и функции И’ (п), построенной 
по нему описанным выше образом. 
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На сегменте шипящей величина (3) быстро растет, поэтому числа (4) относительно 
малы. На сегменте паузы величина (3) растет медленно и поэтому числа (4) относите- 
льно велики. Для различения шипящей и паузы введем порог р (в системе авторов он 


взят равным 200). Возьмем выделенный сегмент глухих согласных и построим для него 
последовательность чисел (4). Те участки, для которых числа (4) превосходят р, отно- 


сим к паузе (их объединение маркируем символом р ), остальные — к шипящей (марки- 


руем ее символом К). В результате компьютер расставит маркированные границы 
шипящих и пауз, как на рис. 4 а). 

Теперь рассмотрим случай слова, состоящего только из голосовых звуков и не 
содержащего Ж и 3. Разобьем сигнал на окна по 256 отсчетов и на каждом из них 
вычислим значение вариации 

254 


Ре | (5) 
0 


Далее от начала слова берется интервал из 20 таких окон и вычисляется среднее 
значение соответствующих величин (5), которое принимается за порог. Производится 
«В-Н»-обработка числового массива с этим порогом. Затем интервал, на котором вы- 
полняется описанная процедура, сдвигается вправо на одно окно и так далее. В ре- 
зультате возникает таблица вида, изображенного на рис. 5. 
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Рисунок 5 — Таблица, используемая при сегментации 
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Затем просматриваются все строки полученной таблицы и создается новая сим- 
вольная последовательность ©. Если текущая 1-я строка таблицы начинается и заканчи- 
вается одним и тем же символом («Н» или «В»), то в ® на 1-ю позицию записывается 
соответствующий символ. Иначе считается количество вхождений каждого из символов 
в данной строке. Если количество «В» превышает количество «Н» или равно ему, то в ° 
на соответствующую позицию записывается «В», иначе «Н». К полученной последова- 
тельности применяется «В-Н»-обработка. Метки сегментации ставятся там, где проис- 
ходит смена символов «Н» на «В», или «В» на «Н». В-участок считается соответству- 
ющим гласной (возле левой метки проставляется символ У). Н-участок считается со- 
ответствующим голосовой согласной (возле левой метки проставляется символ С). 

Если слово содержит шипящие или паузы, то мы выделяем их, как описано выше, 
после чего значения величины (3) для соответствующих им окон полагаем равными 
нулю и сегментируем сигнал только что описанным способом (шипящие и паузы авто- 
матически попадают в число Н-участков). Для надежного выделения голосового соглас- 
ного порядок формирования КУ непосредственно после шипящего или паузы меняется: 
если в строке появляется «В», но она заканчивается на «Н», то ей сопоставляется «Н». 
Дальше все по-старому. Аналогичная ситуация с голосовым согласным непосредствен- 
но перед шипящей или паузой. 

Определенная трудность возникает при выделении в ходе сегментации участков 
согласных Ж, 3. Они содержат существенную шумную компоненту (произносятся с той 
же артикуляцией, что и Ш, С и отличаются от них добавлением голоса). Поэтому для 
них значения величины (3) являются относительно большими (существенно превосхо- 
дящими ее значения для чисто голосовых согласных) и они могут не попасть при обыч- 
ной сегментации в число «Н»-участков. Участки, соответствующие указанным фонемам, 
целесообразно определять заранее, используя модифицированный алгоритм сегментации. 


«Штучний 1нтелект» 32010 265 


ЗШ |-—  _ ШееВ.Ю., Ниценко А.В. Жук АВ. 


Для того чтобы перевести искомые участки в число согласных, для которых ве- 
личина (3) мала, сигнал подвергается 5-кратному сглаживанию. После этого он сегмен- 
тируется описанным выше способом. Для участков Ж и 3 характерна относительно 
большая вариация и значительное ее уменьшение при 5-кратном сглаживании. Поэтому 
выделенные с применением сглаживания «Н»-участки целесообразно промаркировать, 
вычисляя для каждого полученного «Н»-участка среднее значение величин (3) для по- 
точечной разности исходного и пятикратно сглаженного сигнала. Если оно превышает 
некоторый порог Р, участок считается маркированным, в противном случае - нет. Для 


одного из авторов и его оборудования эффективным оказывается порог р = 200. 


Описанное сглаживание сигнала перед сегментацией помогает таким образом вы- 
делить участки Ж и 3 как «Н»-участки, но приводит к значительному ухудшению 
результата при разделении М и И. Поэтому целесообразно проводить окончательную 
сегментацию для исходного сигнала, сохранив полученную информацию относительно 
границ маркированных участков. Именно после того, как маркированные участки выде- 
лены, величины (3), отвечающие соответствующим окнам, полагаются равными нулю. 
В результате маркированные участки оказываются при работе с таблицей, изображен- 
ной на рис. 5, автоматически включенными в число «Н»-участков и можно провести 
сегментацию исходного сигнала в соответствии с описанным выше общим алгоритмом. 
Если при этом возникают метки, отстоящие от уже существующих меток для марки- 
рованных участков на расстояние не более чем в три окна в 256 отсчетов, они рас- 
сматриваются как лишние и удаляются. 

Мы не касаемся в это статье выделения звука «Р». Отметим лишь, что при опи- 
санной процедуре сегментации он чаще всего выделяется как голосовой согласный. 


Обучение системы для конкретного диктора 


Реализованные в системе методики как пофонемного, так и пословного распозна- 
вания предполагают настройку системы на диктора. Обучение пофонемного распознава- 
теля особенностям произношения пользователя заключается в создании дополнительных 
обобщённых транскрипций для каждой команды по результатам сегментации. Обуче- 
ние для пословного распознавания подразумевает создание эталонов произносимых 
слов. Первоначально результатом распознавания обычно является список кандидатов, 
который в алфавитном порядке выводится в нижней части окна программы (рис. 6). 
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Рисунок 6— Результат распознавания команды «точка» 


Если одно или несколько слов соответствуют распознанной обобщённой транс- 
крипции, то они выводятся перед остальным словарём, также отсортированные в алфа- 
витном порядке и окрашенные в синий цвет. Среди этих слов происходит пословное 
распознавание, и наиболее близкое к эталону слово принимается в качестве оконча- 
тельного решения и выносится на первое место в списке результатов. 

Первоначально система является полностью необученной. Это означает, что каж- 
дому слову в словаре поставлена в соответствие только одна, «идеальная», обобщённая 
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транскрипция, соответствующая фонетическим правилам русского языка и отсутствуют 
эталоны слов-команд. После произнесения очередной команды пользователь может либо 
согласиться с результатом распознавания, либо откорректировать его, выбрав нужный 
вариант в списке кандидатов. При этом программа создает голосовой эталон сказанного 
слова, который в дальнейшем позволяет автоматически выделять нужный вариант из 
вышеупомянутого списка кандидатов. Ошибочно созданные эталоны удаляются авто- 
матически после выполнения пользователем коррекции результатов. Таким образом, 
система позволяет сразу набирать формульный текст и в процессе работы постепенно 
обучается «понимать» пользователя без его дополнительного вмешательства. 


Выводы 


В статье рассмотрена архитектура модульной системы голосового управления, 
рассмотрены требования к функциям, экспортируемым модулем-прослойкой, а также 
требования к формату файла словаря команд. Такая модульная структура позволяет со- 
средоточить все функции голосового управления внутри одной программы. Кроме того, 
такой подход позволяет создавать модули-прослойки для управления конкретными при- 
ложениями авторам этих приложений или сторонним разработчикам. 

Описанные методики определения границ речи в сигнале, выделения в сигнале, 
содержащем речь участков, соответствующих глухим звукам, шипящим, паузам, а так- 
же методики окончательной сегментации с одновременным распознаванием по широ- 
ким фонетическим классам позволяют довольно точно получать обобщённые транс- 
крипции распознаваемых слов, что позволяет значительно сократить словарь для 
дальнейшего распознавания слова как единого целого. 

Предложенная в статье методика обучения системы в процессе использования 
позволяет сделать процесс настройки незаметным для пользователя и свести его к 
обычным операциям над системой голосового управления. 
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